大多数现有的时间序列分类(TSC)模型缺乏可解释性,难以检查。可解释的机器学习模型可以帮助发现数据中的模式,并为域专家提供易于理解的见解。在这项研究中,我们提出了神经符号时间序列分类(NSTSC),这是一种利用信号时间逻辑(STL)和神经网络(NN)的神经符号模型,使用多视图数据表示并将模型表示为TSC任务人类可读,可解释的公式。在NSTSC中,每个神经元与符号表达相关,即STL(sub)公式。因此,NSTSC的输出可以解释为类似于自然语言的STL公式,描述了隐藏在数据中的时间和逻辑关系。我们提出了一个基于NSTSC的分类器,该分类器采用决策树方法来学习公式结构并完成多类TSC任务。 WSTL提出的平滑激活功能允许以端到端的方式学习模型。我们在来自UCR时间序列存储库中的小鼠和基准数据集的现实伤口愈合数据集上测试NSTSC,这表明NSTSC与最先进的模型实现了可比的性能。此外,NSTSC可以生成与域知识匹配的可解释公式。
translated by 谷歌翻译
资源说明框架(RDF)和属性图(PG)是表示,存储和查询图数据的两个最常用的数据模型。我们提出了表达推理图存储(ERGS) - 构建在Janusgraph(属性图存储)顶部的图存储,该图还允许存储和查询RDF数据集。首先,我们描述了如何将RDF数据转换为属性图表示,然后描述将SPARQL查询转换为一系列Gremlin遍历的查询翻译模块。因此,开发的转换器和翻译器可以允许任何Apache TinkerPop符合图形数据库存储和查询RDF数据集。我们证明了使用JanusGraph作为基本属性图存储的建议方法的有效性,并将其性能与标准RDF系统进行比较。
translated by 谷歌翻译
知识库问题的最现有的方法接听(KBQA)关注特定的基础知识库,原因是该方法的固有假设,或者因为在不同的知识库上评估它需要非琐碎的变化。然而,许多流行知识库在其潜在模式中的相似性份额可以利用,以便于跨知识库的概括。为了实现这一概念化,我们基于2级架构介绍了一个KBQA框架,该架构明确地将语义解析与知识库交互分开,促进了数据集和知识图中的转移学习。我们表明,具有不同潜在知识库的数据集预先灌注可以提供显着的性能增益并降低样本复杂性。我们的方法可实现LC-Quad(DBPedia),WEDQSP(FreeBase),简单问话(Wikidata)和MetaQA(WikiMovies-KG)的可比性或最先进的性能。
translated by 谷歌翻译
This paper computationally demonstrates a sharp improvement in predictive performance for $k$ nearest neighbors thanks to an efficient forward selection of the predictor variables. We show both simulated and real-world data that this novel repeatedly approaches outperformance regression models under stepwise selection
translated by 谷歌翻译
我们介绍了无界深度神经网络(UDN),这是一个无限深的概率模型,可使其复杂性适应训练数据。 UDN包含一个无限的隐藏层序列,并将无限的先验放在截断L上,该层产生数据的层。给定观测数据集,后UDN提供了无限神经网络参数及其截断的条件分布。我们开发了一种新型的变分推理算法来近似此后部,优化了神经网络权重和截断深度L的分布,而没有任何上限。任意深度的网络权重,并且随着其截断的分布被优化,它会动态创建或删除自由变分参数。 (与启发式搜索的方法不同,该算法仅通过基于梯度的优化来探讨截断的空间。)我们研究了UDN,对真实和合成数据进行了研究。我们发现UDN将其后深度适应数据集的复杂性。它的表现优于类似计算复杂性的标准神经网络;它的表现优于无限深度神经网络的其他方法。
translated by 谷歌翻译
隐藏的马尔可夫链(HMC)和复发性神经网络(RNN)是预测时间序列的两个知名工具。即使这些解决方案是在不同的社区中独立开发的,但当被认为是概率结构时,它们具有一些相似之处。因此,在本文中,我们首先将HMC和RNN视为生成模型,然后将这两个结构嵌入了共同的生成统一模型(GUM)中。接下来,我们讨论了这些模型表达性的比较研究。为此,我们假设模型是线性和高斯。这些模型产生的概率分布以结构化协方差序列为特征,因此表达性降低到比较结构化协方差序列的集合,这使我们能够要求随机实现理论(SRT)。我们最终提供了可以通过口香糖,HMC或RNN实现给定协方差序列的条件。
translated by 谷歌翻译
估计变量的重要性是现代机器学习的重要任务。这有助于评估给定模型中功能的优点。在过去的十年中,已经开发了几种估计变量重要性的技术。在本文中,我们提出了对可变重要性估计的新兴方法的计算和理论探索,即:绝对收缩和选择操作员(LASSO),支持向量机(SVM),预测误差函数(Perf),随机森林(随机森林)( RF)和极端梯度提升(XGBOOST)在不同类型的现实生活和模拟数据上进行了测试。所有这些方法都可以无缝处理回归和分类任务,但是在处理包含丢失值的数据时都失败了。该实现表明,在高度相关数据的情况下,PURD具有最佳性能,紧随其后的是RF。 perf和xgboost是“渴望数据”的方法,它们在小数据尺寸上的性能最差,但在执行时间方面它们是最快的。当数据集中许多冗余功能时,SVM是最合适的。 perf的盈余是其自然截止量的零截止,有助于将正面和负分数分开,所有正分数表明基本和重要的特征,而负面分数表示无用的特征。 RF和Lasso的通用性非常多,尽管它们没有给予最佳效果,但它们几乎可以在所有情况下使用。
translated by 谷歌翻译
根据深层神经网络生成逼真的合成数据的显着能力,我们重新审视了经典的信号到符号屏障。深层和欺骗强调了物理现实与其抽象表示之间的联系,无论是由数字计算机学到的还是生物剂。从广泛适用的抽象概念定义开始,我们表明,尽管具有非常有效的分类器,但无论体重的数量和培训数据的数量如何,标准的馈送架构都无法捕获琐碎的概念。另一方面,结合递归的体系结构可以代表更大的概念类别,但仍然无法从有限数据集中学习它们。我们定性地描述了可以使用(自由能)Lagrangian来衡量信息复杂性的现代体系结构可以“理解”的概念类别。但是,即使已经理解了一个概念,除非通过持续的互动和验证,否则网络也没有将其理解传达给外部代理的方法。然后,我们将物理对象描述为抽象概念,并使用先前的分析表明可以通过有限体系结构对物理对象进行编码。但是,要了解物理概念,传感器必须提供持续令人兴奋的观察结果,以控制数据采集过程是必不可少的(主动感知)。控制的重要性取决于模态,比声学或化学感知更受视觉效果。最后,我们得出的结论是,在有限资源的有限时间内,将物理实体绑定到数字身份是可能的,原则上解决了信号到符号屏障问题,但我们强调了需要进行连续验证的必要性。
translated by 谷歌翻译
重要性采样(IS)是一种使用来自建议分布和相关重要性权重的独立样本在目标分布下近似期望的方法。在许多应用中,只有直到归一化常数才知道目标分布,在这种情况下,可以使用自称为(SNIS)。虽然自我正态化的使用可能会对估计量的分散产生积极影响,但它引入了偏见。在这项工作中,我们提出了一种新方法BR-SNIS,其复杂性与SNI的复杂性基本相同,并且显着降低了偏见而不增加差异。这种方法是一种包装器,从某种意义上说,它使用了与SNIS相同的建议样本和重要性权重,但巧妙地使用了迭代采样(ISIR)重新采样(ISIR)来形成估算器的偏置版本。我们为提出的算法提供了严格的理论结果,包括新的偏见,方差和高概率界限,这些算法由数值示例进行了说明。
translated by 谷歌翻译
我们基于新的有条件共同信息(LOO-CMI)的新量度来得出有关监督学习算法的理论概括界。与其他不利于问题结构的黑框界面相反,在实践中可能很难评估,我们的loo-CMI界限可以轻松计算,并且可以通过与其他概念(例如经典的一对一的交叉验证,优化算法的稳定性和损失景观的几何形状。它既适用于训练算法的输出及其预测。我们从经验上通过评估其在深度学习的情况下评估其预测的概括差距来验证界限的质量。特别是,我们的界限在大规模的图像分类任务上是无效的。
translated by 谷歌翻译